共同信息(MI)已被广泛用作训练神经网络的损失正规化程序。当学习高维数据的分解或压缩表示时,这特别有效。但是,差异熵(DE)是信息的另一种基本衡量标准,在神经网络培训中尚未发现广泛使用。尽管DE提供了比MI的可能更广泛的应用程序,但现成的DE估计器要么是非可区分的,在计算上是棘手的,要么无法适应基础分布的变化。这些缺点使它们无法在神经网络培训中用作正规化器。为了解决DE先前提出的估计器中的缺点,我们在这里介绍了刀具,这是一个完全参数化的,基于DE的基于核的估计器。我们方法的灵活性还使我们能够为条件(离散变量或连续变量)以及MI构建基于刀的估计器。我们从经验上验证了高维合成数据的方法,并进一步应用它来指导神经网络的现实任务培训。我们对各种任务的实验,包括视觉域的适应性,文本公平分类和文本微调,证明了基于刀的估计的有效性。代码可以在https://github.com/g-pichler/knife上找到。
translated by 谷歌翻译
基于样本的连续分布信息衡量估算是统计和机器学习中的一个基本问题。在本文中,当概率密度函数属于预定的凸面族{P} $时,我们分析了从有限数量的样本计算的差分熵的估计。首先,如果$ \ mathcal {p} $的密度差异熵是无限的,显然表达出额外假设的必要性,则估计差动熵将是不可行的。随后,我们调查了足够的条件,使差动熵估计能够置信界限。特别地,假设概率密度函数是LipsChitz恒定和已知的界限支持的概率密度函数是LipsChitz的差分熵的简单直方图估计的基于差分熵的差分估计。我们的重点是在差分熵上,但我们提供了示例,表明相似的结果适用于相互信息和相对熵。
translated by 谷歌翻译
Curiosity for machine agents has been a focus of lively research activity. The study of human and animal curiosity, particularly specific curiosity, has unearthed several properties that would offer important benefits for machine learners, but that have not yet been well-explored in machine intelligence. In this work, we conduct a comprehensive, multidisciplinary survey of the field of animal and machine curiosity. As a principal contribution of this work, we use this survey as a foundation to introduce and define what we consider to be five of the most important properties of specific curiosity: 1) directedness towards inostensible referents, 2) cessation when satisfied, 3) voluntary exposure, 4) transience, and 5) coherent long-term learning. As a second main contribution of this work, we show how these properties may be implemented together in a proof-of-concept reinforcement learning agent: we demonstrate how the properties manifest in the behaviour of this agent in a simple non-episodic grid-world environment that includes curiosity-inducing locations and induced targets of curiosity. As we would hope, our example of a computational specific curiosity agent exhibits short-term directed behaviour while updating long-term preferences to adaptively seek out curiosity-inducing situations. This work, therefore, presents a landmark synthesis and translation of specific curiosity to the domain of machine learning and reinforcement learning and provides a novel view into how specific curiosity operates and in the future might be integrated into the behaviour of goal-seeking, decision-making computational agents in complex environments.
translated by 谷歌翻译
ICECUBE是一种用于检测1 GEV和1 PEV之间大气和天体中微子的光学传感器的立方公斤阵列,该阵列已部署1.45 km至2.45 km的南极的冰盖表面以下1.45 km至2.45 km。来自ICE探测器的事件的分类和重建在ICeCube数据分析中起着核心作用。重建和分类事件是一个挑战,这是由于探测器的几何形状,不均匀的散射和冰中光的吸收,并且低于100 GEV的光,每个事件产生的信号光子数量相对较少。为了应对这一挑战,可以将ICECUBE事件表示为点云图形,并将图形神经网络(GNN)作为分类和重建方法。 GNN能够将中微子事件与宇宙射线背景区分开,对不同的中微子事件类型进行分类,并重建沉积的能量,方向和相互作用顶点。基于仿真,我们提供了1-100 GEV能量范围的比较与当前ICECUBE分析中使用的当前最新最大似然技术,包括已知系统不确定性的影响。对于中微子事件分类,与当前的IceCube方法相比,GNN以固定的假阳性速率(FPR)提高了信号效率的18%。另外,GNN在固定信号效率下将FPR的降低超过8(低于半百分比)。对于能源,方向和相互作用顶点的重建,与当前最大似然技术相比,分辨率平均提高了13%-20%。当在GPU上运行时,GNN能够以几乎是2.7 kHz的中位数ICECUBE触发速率的速率处理ICECUBE事件,这打开了在在线搜索瞬态事件中使用低能量中微子的可能性。
translated by 谷歌翻译
自动面部识别是一个知名的研究领域。在该领域的最后三十年的深入研究中,已经提出了许多不同的面部识别算法。随着深度学习的普及及其解决各种不同问题的能力,面部识别研究人员集中精力在此范式下创建更好的模型。从2015年开始,最先进的面部识别就植根于深度学习模型。尽管有大规模和多样化的数据集可用于评估面部识别算法的性能,但许多现代数据集仅结合了影响面部识别的不同因素,例如面部姿势,遮挡,照明,面部表情和图像质量。当算法在这些数据集上产生错误时,尚不清楚哪些因素导致了此错误,因此,没有指导需要多个方向进行更多的研究。这项工作是我们以前在2014年开发的作品的后续作品,最终于2016年发表,显示了各种面部方面对面部识别算法的影响。通过将当前的最新技术与过去的最佳系统进行比较,我们证明了在强烈的遮挡下,某些类型的照明和强烈表达的面孔是深入学习算法所掌握的问题,而具有低分辨率图像的识别,极端的姿势变化和开放式识别仍然是一个开放的问题。为了证明这一点,我们使用六个不同的数据集和五种不同的面部识别算法以开源和可重现的方式运行一系列实验。我们提供了运行所有实验的源代码,这很容易扩展,因此在我们的评估中利用自己的深网只有几分钟的路程。
translated by 谷歌翻译
流程的执行留下了信息系统中事件数据的痕迹。这些事件数据可以通过过程挖掘技术进行分析。对于传统的流程​​挖掘技术,必须将每个事件与一个对象(例如公司的客户)相关联。与一个对象相关的事件形成一个称为案例的事件序列。一个案例描述了通过流程进行的端到端运行。事件数据中包含的案例可用于发现过程模型,检测频繁的瓶颈或学习预测模型。但是,在现实生活中遇到的事件,例如ERP系统通常可以与多个对象关联。传统的顺序案例概念缺少这些以对象为中心的事件数据,因为这些数据显示了图形结构。一个人可能会通过使其变色将以对象为中心的事件数据迫使传统案例概念。但是,扁平化操纵数据并删除信息。因此,与传统事件日志的案例概念相似的概念对于启用以对象为中心的事件数据应用不同的过程挖掘任务是必要的。在本文中,我们介绍了以对象为中心的过程挖掘的案例概念:过程执行。这些是基于图形的案例概括,如传统过程采矿中所考虑的。此外,我们提供了提取过程执行的技术。基于这些执行,我们确定了使用图同构的属性相对于属性的等效过程行为。关于事件活动的等效过程执行是以对象为中心的变体,即传统过程挖掘中变体的概括。我们为以对象为中心的变体提供了可视化技术。贡献的可伸缩性和效率得到了广泛的评估。此外,我们提供了一个案例研究,显示了现实生活中最常见的以对象为中心的变体。
translated by 谷歌翻译
当前的计算模型捕获单词的含义主要取决于文本语料库。尽管这些方法在过去几十年中取得了成功,但它们在现实世界中缺乏基础仍然是一个持续的问题。在本文中,我们专注于单词嵌入的视觉接地,并针对两个重要问题。首先,在视觉接地过程中,语言如何从视觉中受益?其次,视觉接地和抽象概念之间是否存在联系?我们通过提出一种简单而有效的方法来调查这些问题,在该方法中,语言在具体和抽象词的建模方面特别受益于视觉。我们的模型将单词嵌入与其相应的视觉表示形式对齐,而不会降低文本分布信息所捕获的知识。我们将模型应用于G \“ Unther等人(2020)报告的行为实验,该实验解决了抽象单词的视觉心理表示的合理性。我们的评估结果表明:(1)可以预测人类行为(2)与文本对应物相比,我们的接地嵌入方式在很大程度上更好地模型。(3)抽象的概念通过其与具体概念的连接而不是具有相应的视觉表现方式,从而从视觉接地中受益。
translated by 谷歌翻译
在计算加强学习中,越来越多的作品试图通过预测未来的感觉来构建代理人对世界的看法。关于环境观察的预测用作额外的输入功能,以实现更好的目标指导决策。这项工作中的一个公开挑战是从代理商可能做出的许多预测中决定哪些预测可能最能支持决策。在连续学习问题中,这一挑战尤其明显,在这种问题上,单一的经验可以为单一的代理使用。作为主要贡献,我们介绍了一个元梯度下降过程,代理商通过该过程学习1)要做出的预测,2)其所选预测的估计值; 3)如何使用这些估计来生成最大化未来奖励的政策 - - 全部在一个持续学习的过程中。在本手稿中,我们将表达为一般价值函数的预测考虑:对未来信号积累的时间扩展估计。我们证明,通过与环境的互动,代理可以独立选择解决部分观察性的预测,从而产生类似于专业指定的GVF的性能。通过学习,而不是手动指定这些预测,我们使代理商能够以自我监督的方式确定有用的预测,从而迈向真正的自主系统。
translated by 谷歌翻译
在计算强化学习中,越来越多的工作体验旨在通过关于未来感觉的预测来表达世界的代理人模型。在本手稿中,我们专注于以一般值函数表示的预测:时间延长了未来信号累积的估计。一个挑战是从无数的许多预测中确定了代理人可能会产生哪些可能支持决策的预测。在这项工作中,我们贡献了一个元梯度下降方法,代理可以直接指定它学习的预测,而独立于设计者指令。为此,我们介绍了适合这项调查的部分可观察的域名。然后,我们演示通过与环境的交互,代理可以独立地选择解决部分可观察性的预测,从而导致类似于专业选择的值函数的性能。通过学习,而不是手动指定这些预测,我们使代理能够以自我监督的方式识别有用的预测,从而迈向真正自治系统。
translated by 谷歌翻译
自组织的关键性描述了一类动态系统,其在吸引子状态下,没有内在长度或时间尺度。从根本上,这种理论构建构造需要一种不稳定性的机制,可以通过耗散过程在本地触发额外的不稳定性。已经调用了这一概念来解释非线性动态现象,例如以凭经验为地震,雪崩和太阳耀斑观察到的无特征能谱。如果这种解释证明了正确的话,它意味着太阳冠状磁场通过电动驱动的磁能的磁能和通过辐射事件释放该能量之间的微妙平衡来保持临界状态。所有天空高音等待卫星调查卫星(TESS)等透支勘测提供了必要的数据,以比较不同光谱类型的星星中的燃烧事件的能量分布,以在太阳中观察到。我们确定了$ \ SIM 10 ^ 6 $耀斑的事件在$ \ sim 10 ^ 5 $星星在苔丝2分钟观察到。通过拟合不同质量箱的爆发频率分布,我们发现所有主要序列明星都表现出类似于太阳在阳光下观察到的燃烧事件的分布,与其大量或年龄无关。这可能表明星星通过磁性重构事件普遍存在冠状拓扑中的临界状态。如果这种解释证明是正确的,我们可能能够推断出磁场,内部结构和发电机机制的特性,否则是未解决的点源的恒星。
translated by 谷歌翻译